Apache Spark - The mini wiki

Apache Spark 编辑

Apache Spark是一个开源丛集运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Apache Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中，Spark使用了内存内运算技术，能在资料尚未写入硬盘时即在内存内分析运算。Spark在内存内执行程式的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是执行程式于硬盘时，Spark也能快上10倍速度。Spark允许用户将资料加载至丛集内存，并多次对其进行查询，非常适合用于机器学习算法。

图片 0 图片

评论 0 评论

匿名用户 · [[ show_time(comment.timestamp) ]]

[[ nltobr(comment.content) ]]

相关

Apache Beam是一个开源统一编程模型，用于定义和执行数据处理管道，包括ETL、批处理和流式处理。 Beam流水线是使用提供的SDK之一定义的，并在Beam支持的一个运行器中执行，包括Apache Apex、Apache Flink、Apache Gearpump、Apache Samza、Apache Spark和Google Cloud Dataflow。

XGBoost 是一个开源软件函式库，它为 C++、Java、Python、
R语言、和Julia提供了一个梯度提升技术框架，适用于Linux、Microsoft Windows、和
MacOS。根据项目的描述，它的目的在于提供一个"可扩展、可移植和分布式梯度提升库"。 XGBoost除了可以在单一机器上运行，也支持运行在分布式框架Apache Hadoop、Apache Spark、Apache Flink。
近几年，由于这个算法受到许多在机器学习竞赛中获奖团队的青睐，因而受到了广泛的欢迎和关注。

Databricks是一家美国企业软件公司，由Apache Spark的创建者创立。Databricks 开发了一个基于 Web 的平台，用于与 Spark 一起工作，提供自动化集群管理和IPython风格的笔记本。

Deeplearning4j是为Java和Java虚拟机编写的开源深度学习库，是广泛支持各种深度学习算法的运算框架。Deeplearning4j可以实施的技术包括受限玻尔兹曼机、深度置信网络、深度自动编码器、堆叠式降噪自动编码器、循环神经张量网络，以及Word2vec、doc2vec和GloVe。这些算法全部包括分布式并行版本，与Hadoop和Apache Spark集成。Skymind是Deeplearning4j的商业支持机构。

Jetty是一个纯粹的基于Java的网页服务器和Java ServletWeb容器。尽管网页服务器通常用来为人们呈现文档，但是Jetty通常在较大的软件框架中用于计算机与计算机之间的通信。Jetty作为Eclipse基金会的一部分，是一个自由软件和开放源代码项目。该网页服务器被用在Apache ActiveMQ、Alfresco、Apache Geronimo、Apache Maven、Apache Spark、Google App Engine、Eclipse、FUSE、Twitter's Streaming API、Zimbra等产品上。Jetty也是Lift、Eucalyptus、Red5、Hadoop、I2P等开源项目的服务器。
Jetty支持最新的Java Servlet API，支持SPDY和WebSocket协议。